電腦視覺與數位影像處理導論
電腦視覺是人工智慧的一個領域,使電腦能從數位影像和影片中提取有意義的資訊,有效地試圖彌補語意差距原始像素資料與人類層次理解之間的差距。數位影像處理作為電腦視覺的基礎層,專注於透過像素到像素的轉換來操縱和增強影像訊號,以準備資料進行更高層次的解釋性任務。
核心原則
- 資料表示:在機器層級上,影像是一種數值張量而非整體性的圖像。灰度影像為強度值的二維矩陣,而彩色影像則是代表紅、綠、藍(RGB)通道的三維張量,其尺寸為 $H \times W \times 3$。
- 轉換與解讀的對比:數位影像處理主要關注影像到影像的操作,例如降噪、銳化或直方圖均勻化。電腦視覺則專注於影像到知識的操作,例如物件分類、定位與分割。
- 逆向圖形學原理:電腦視覺可被視為電腦圖形學的逆向。圖形學致力於從數學模型生成視覺世界,而視覺則致力於從二維投影中恢復三維結構與語意標籤。
核心挑戰
此領域的主要挑戰是語意差距,即機器處理的底層像素值與人類所感知的高階概念之間的斷裂。
Python 實作
問題 1
哪一種流程被歸類為影像到知識的操作?
問題 2
在機器層級上,標準彩色影像的資料結構是什麼?
案例研究:醫療診斷系統
閱讀以下情境並回答問題。
一家醫院正在開發一套新的自動化醫療診斷系統,旨在分析X光掃描以檢測潛在的骨頭骨折。該系統會處理來自X光機的原始感應器資料,並為放射科醫師產出診斷報告。
問題
1. 如果系統應用對比度增強以讓骨頭結構更清晰,這屬於數位影像處理(DIP)還是電腦視覺(CV)?
答案:
數位影像處理。對比度增強是一種影像到影像的轉換,可提升訊號的視覺品質,而不需提取語意意義。
數位影像處理。對比度增強是一種影像到影像的轉換,可提升訊號的視覺品質,而不需提取語意意義。
問題
2. 如果系統自動將特定區域標示為可能的骨折,它執行的是什麼任務?
答案:
電腦視覺/物件偵測。系統正在解讀影像內容以提取高階知識(定位骨折)。
電腦視覺/物件偵測。系統正在解讀影像內容以提取高階知識(定位骨折)。
問題
3. 為何在執行偵測演算法前必須先進行雜訊降低?
答案:
為了提升訊號品質,並減少語意解讀階段的假陽性。雜訊可能被電腦視覺演算法誤解為實際特徵或邊緣。
為了提升訊號品質,並減少語意解讀階段的假陽性。雜訊可能被電腦視覺演算法誤解為實際特徵或邊緣。